\subsection{分层抽样法}

用平均值法计算 \({\int }_{C}h\left( \mathbf{x}\right) d\mathbf{x}\) ,若 \(h\left( \mathbf{x}\right)\) 在 \(C\) 内取值变化范围大则估计方差较大。重要抽样法选取了与 \(f\left( x\right)\) 形状相似但是容易抽样的密度 \(g\left( x\right)\) 作为试投密度,大大提高了精度,但是这样的 \(g\left( \mathbf{x}\right)\) 有时难以找到。

{\color{red}\textbf{[核心思想——分而治之]:} 分层抽样的根本思想是``divide and conquer''——将一个高方差的复杂问题分解为多个低方差的简单子问题。想象你要估计一个国家的平均收入:如果直接随机抽样,可能碰巧抽到很多富人或很多穷人,方差巨大;但如果先按地区(城市/农村)或职业分层,每层内收入相近,估计就稳定得多。数学上,这利用了方差分解:总方差 = 层内方差 + 层间方差,分层后只需估计层内小方差!}

{\color{red}\textbf{[生动比喻]:} 分层抽样就像``质量检验''——一批产品中既有合格品又有次品,如果混在一起随机检验,结果波动很大;聪明的做法是先用某种特征(如重量、外观)粗略分类,再对每类分别检验。又像``民意调查''——不同年龄段、地区的人观点差异大,直接平均会被个别极端样本主导;分层后各组内观点相近,估计更准确。}

{\color{red}\textbf{[与重要抽样对比]:} 重要抽样需要找到一个好的试投密度$g(x)$,这在高维或复杂函数时很困难——你必须对$f$的形状有精确了解。分层抽样则简单得多:只需将积分区域切分成若干块,使每块内$h(x)$变化不大即可,无需精确知道$h$的全局结构。这是``粗粒化''vs``精细模拟''的权衡。}

如果把 \(C\) 上的积分分解为若干个子集上的积分,使得 \(h\left( \mathbf{x}\right)\) 在每个子集上变化不大,分别计算各个子集上的积分再求和,可以提高估计精度。这种方法与 \(§{2.2.5}\) 的复合抽样法类似, 叫做分层抽样法。这也是抽样调查中的重要技术。

例 3.2.6. 对函数

\[
h\left( x\right)  = \left\{  \begin{array}{ll} 1 + \frac{x}{10}, & 0 \leq  x \leq  {0.5} \\   - 1 + \frac{x}{10}, & {0.5} < x \leq  1 \end{array}\right.
\]

求定积分

\[
I = {\int }_{0}^{1}h\left( x\right) {dx}
\]

{\color{red}\textbf{[精心设计的例子]:} 这个例子极具教学价值!函数$h(x)$在前半段接近+1(范围1.0到1.05),在后半段接近-1(范围-1.0到-0.95),两段``几乎相互抵消'',真实积分只有0.05——这是一个小量!如果直接平均,会采样到很多+1附近和-1附近的值,它们求和时会产生巨大的随机涨落(正负相消的不确定性),导致相对误差极大。这正是分层抽样大显身手的场景!}

可以得 \(I\) 的精确值为 \(I = {0.05}\) 。我们用平均值法和分层抽样法来估计 \(I\) 并比较精度。

在 \(\left\lbrack  {0,1}\right\rbrack\) 区间随机抽取 \(N\) 点用平均值法得 \({\widehat{I}}_{2}\) ,其渐近方差为

\[
\operatorname{Var}\left( {\widehat{I}}_{2}\right)  = \frac{\operatorname{Var}\left( {h\left( U\right) }\right) }{N} = \frac{143}{150N} \approx  \frac{0.9533}{N}.
\]

{\color{red}\textbf{[方差来源分析]:} 这个方差为什么这么大?因为$h(U)$在$[0,1]$上的取值跨度约为2(从+1跳到-1),而期望值只有0.05。直接平均时,随机点既可能落在+1区域也可能落在-1区域,每次采样都像在做``抛硬币''——有一半机会得到+1附近的值,一半机会得到-1附近的值。这种``大幅度振荡''导致$\text{Var}(h(U)) \approx 0.95$,远大于积分真值$I=0.05$!信噪比极低。}

把 \(I\) 拆分为 \(\left\lbrack  {0,{0.5}}\right\rbrack\) 和 \(\left\lbrack  {{0.5},1}\right\rbrack\) 上的积分,即

\[
I = a + b = {\int }_{0}^{0.5}h\left( x\right) {dx} + {\int }_{0.5}^{1}h\left( x\right) {dx},
\]

{\color{red}\textbf{[分层的关键]:} 注意分层点选在$x=0.5$——这正是函数$h(x)$的跳跃点!这不是巧合,而是策略:我们把``性质差异巨大''的两个区域分开处理。第一层$h(x) \approx +1$,第二层$h(x) \approx -1$,各层内部$h$几乎不变,方差自然就小了。这就像``隔离冲突''——把意见对立的两派分开统计,避免混在一起相互干扰。}

对 \(a\) 和 \(b\) 分别用平均值法,得

\[
\widehat{a} = \frac{0.5}{N/2}\mathop{\sum }\limits_{{i = 1}}^{{N/2}}h\left( {{0.5}{U}_{i}}\right)  = \frac{0.5}{N/2}\mathop{\sum }\limits_{{i = 1}}^{{N/2}}\left( {1 + {0.05}{U}_{i}}\right) ,
\]

\[
\widehat{b} = \frac{0.5}{N/2}\mathop{\sum }\limits_{{i = \left( {N/2}\right)  + 1}}^{N}h\left( {{0.5} + {0.5}{U}_{i}}\right)  = \frac{0.5}{N/2}\mathop{\sum }\limits_{{i = \left( {N/2}\right)  + 1}}^{N}\left( {-1 + {0.05} + {0.05}{U}_{i}}\right) ,
\]

\[
{\widehat{I}}_{5} = \widehat{a} + \widehat{b},
\]

则分层抽样法结果 \({\widehat{I}}_{5}\) 的渐近方差为

\[
\operatorname{Var}\left( {\widehat{I}}_{5}\right)  = \operatorname{Var}\left( {\widehat{a} + \widehat{b}}\right)  = \operatorname{Var}\left( \widehat{a}\right)  + \operatorname{Var}\left( \widehat{b}\right)
\]

{\color{red}\textbf{[方差相加的关键]:} 为什么$\text{Var}(\hat{a} + \hat{b}) = \text{Var}(\hat{a}) + \text{Var}(\hat{b})$?因为两层使用独立的随机点!这是分层抽样的一个微妙优势:各层估计相互独立,方差简单相加。而且注意,虽然两层的积分值几乎相互抵消($a \approx 0.525, b \approx -0.475$),但它们的估计误差是统计独立的,不会像直接平均那样产生``相消放大''效应。}

\[
= {0.25}\frac{\operatorname{Var}\left( {1 + {0.05U}}\right) }{N/2} + {0.25}\frac{\operatorname{Var}\left( {-{0.95} + {0.05U}}\right) }{N/2} = \frac{1/{4800}}{N},
\]

{\color{red}\textbf{[数学细节]:} 让我们仔细看这个计算:第一层$h(x)=1+0.05U$,方差是$\text{Var}(0.05U) = 0.05^2 \cdot \text{Var}(U) = 0.0025 \times 1/12 \approx 0.0002$。第二层同理。每层用$N/2$个样本,前面的0.25是区域长度的平方$(0.5)^2$。关键是:每层内部$h$的变化只有0.05(从1.0到1.05或从-1.0到-0.95),而不是整体的2(从+1到-1)!这就是方差缩小的根本原因。}

{\color{red}\textbf{[惊人效果]:} 分层后方差从$0.9533/N$降到$0.0002/N$,减少了约4500倍!这是一个令人震撼的数字——相同样本量下,分层抽样的标准误差缩小67倍($\sqrt{4500} \approx 67$);或者说,要达到相同精度,分层抽样只需$1/4500$的样本量!原来需要450万个样本才能达到的精度,现在1000个样本就够了。这说明原来的巨大方差几乎全部来自``层间差异''($h$在两层差距约2),分层后只剩下每层内部的微小``层内涨落''($h$在每层变化仅0.05)。}

{\color{red}\textbf{[物理直觉]:} 这个例子揭示了方差的本质:方差不是来自``总变化量'',而是来自``不可预测的随机变化''。虽然$h$在$[0,1]$上总变化很大,但这种变化是``确定性的''——我们知道前半段是+1附近,后半段是-1附近。分层后,我们把这种``已知的系统性差异''用确定性的分层结构捕捉了,只让每层内``真正随机的微小涨落''影响估计。这就是``提取信号、抑制噪声''的精髓!}

分层后的估计方差远小于不分层的结果, 可以节省样本量约 4500 倍。

一般地,设积分 \(I = {\int }_{C}h\left( \mathbf{x}\right) d\mathbf{x}\) 可以分解为 \(m\) 个不交的子集 \({C}_{j}\) 上的积分,即

\[
I = {\int }_{C}h\left( \mathbf{x}\right) d\mathbf{x} = {\int }_{{C}_{1}}h\left( \mathbf{x}\right) d\mathbf{x} + {\int }_{{C}_{2}}h\left( \mathbf{x}\right) d\mathbf{x} + \cdots  + {\int }_{{C}_{m}}h\left( \mathbf{x}\right) d\mathbf{x}
\]

{\color{red}\textbf{[一般框架]:} 分层抽样的数学结构极其清晰:将一个大积分分解为多个小积分的和。关键是这个分解既是``精确的''(各层积分和等于总积分),又是``概率独立的''(各层用不同的随机点)。这种结构确保了:1)无偏性被保留;2)方差可以独立计算后相加;3)每层可以用不同的样本量优化。这是``线性可加性''带来的优雅性质。}

在 \({C}_{j}\) 投 \({n}_{j}\) 个随机点 \({X}_{ji} \sim  \mathrm{U}\left( {C}_{j}\right) ,i = 1,\ldots ,{n}_{j}\) ,则 \(I\) 的 \(m\) 个部分可以分别用平均值法估计,由此得 \(I\) 的分层估计为

\[
{\widehat{I}}_{5} = \mathop{\sum }\limits_{{j = 1}}^{m}\frac{V\left( {C}_{j}\right) }{{n}_{j}}\mathop{\sum }\limits_{{i = 1}}^{{n}_{j}}h\left( {X}_{ji}\right)
\]

{\color{red}\textbf{[估计量结构]:} 注意每层的估计量形式:$\frac{V(C_j)}{n_j}\sum_{i=1}^{n_j} h(X_{ji})$——这就是该层的``体积''乘以``函数平均值''。整体估计是各层``加权和'',权重恰好是体积。这与直接平均$\frac{1}{N}\sum h(X_i)$的区别在于:直接平均时,样本点``随机''分布在各区域;分层后,我们``主动控制''每层的样本数,这种控制带来了方差的优化空间。}

记 \({\sigma }_{j}^{2} = \operatorname{Var}\left( {h\left( {X}_{j1}\right) }\right)\) ,划分子集时应使每一子集内 \(h\left( \cdot \right)\) 变化不大,即 \({\sigma }_{j}^{2}\) 较小。这时

\[
\operatorname{Var}\left( {\widehat{I}}_{5}\right)  = \mathop{\sum }\limits_{{j = 1}}^{m}\frac{{V}^{2}\left( {C}_{j}\right) {\sigma }_{j}^{2}}{{n}_{j}}
\]

{\color{red}\textbf{[方差公式解读]:} 这个公式是分层抽样的核心!它告诉我们总方差由各层贡献相加而成,每层的贡献是$\frac{V^2(C_j)\sigma_j^2}{n_j}$。让我们解剖它:(1)$\sigma_j^2$是层内方差——$h$在该层内的涨落;(2)$V(C_j)$是层的体积——大体积层对积分贡献大,方差也大;(3)$n_j$在分母——样本越多,方差越小。这三个因素的乘积决定了该层的``误差贡献''。优化的目标就是合理分配$n_j$使总和最小!}

若 \({\sigma }_{j}^{2}\) 可估计,应取 \({n}_{j}\) 使

\[
{n}_{j} \propto  V\left( {C}_{j}\right) {\sigma }_{j}, \tag{3.31}
\]

{\color{red}\textbf{[最优分配——Neyman分配]:} 这是统计学中著名的Neyman最优分配!公式(3.31)简洁而深刻:样本数$n_j$应该正比于$V(C_j)\sigma_j$——即``体积×标准差''的乘积。直觉上,这意味着:(1)体积大的层应该多分配样本,因为它们对总积分的贡献大;(2)方差大的层也应该多分配样本,因为它们更``难估计'',需要更多信息才能稳定。这就像``资源优化配置''——把有限的计算预算投向``重要且困难''的任务。}

{\color{red}\textbf{[与比例分配对比]:} 如果简单地按体积比例分配,$n_j \propto V(C_j)$(称为``比例分配''),也是一种常用策略。但Neyman分配更优,因为它额外考虑了$\sigma_j$——对于方差特别大的层``重点投入''。极端情况:如果某层$\sigma_j=0$(函数为常数),则该层不需要任何样本!这种``按需分配''比``平均主义''更高效。}

{\color{red}\textbf{[数学推导思路]:} 这个最优性可以用Lagrange乘数法严格证明:目标是最小化$\sum \frac{V_j^2\sigma_j^2}{n_j}$,约束是$\sum n_j = N$。构造拉格朗日函数$L = \sum \frac{V_j^2\sigma_j^2}{n_j} + \lambda(\sum n_j - N)$,对$n_j$求偏导并令其为零:$-\frac{V_j^2\sigma_j^2}{n_j^2} + \lambda = 0$,得$n_j^2 \propto V_j^2\sigma_j^2$,即$n_j \propto V_j\sigma_j$。这是一个优美的``平方根法则''!}

即

\[
{n}_{j} = N\frac{V\left( {C}_{j}\right) {\sigma }_{j}}{\mathop{\sum }\limits_{{k = 1}}^{m}V\left( {C}_{k}\right) {\sigma }_{k}},j = 1,2,\ldots ,m
\]

{\color{red}\textbf{[最优性解释]:} 为什么这样分配是最优的?因为它让``每一单位样本的贡献均等化''。在最优分配下,每层的``边际方差减少率''相同:$\frac{\partial \text{Var}}{\partial n_j} = -\frac{V_j^2\sigma_j^2}{n_j^2}$在所有层相等。这就像经济学的``边际效用均等原则''——最后一元钱花在任何商品上的效用都相同,此时总效用最大。如果某层的边际效益更高,就应该向它多分配样本,直到各层边际效益相等。}

这样取的样本量 \(\left( {{n}_{1},{n}_{2},\ldots ,{n}_{m}}\right)\) 在所有满足 \({n}_{1} + {n}_{2} + \cdots  + {n}_{m} = N\) 的取法中使得渐近方差最小 (见习题1)。

在分层抽样法中, 划分了子集后, 每一子集上的积分也可用重要抽样法计算。

{\color{red}\textbf{[组合策略]:} 这里提示了一个强大的思想——不同的方差缩减技术可以``叠加''使用!先用分层抽样将问题分解为同质性强的子问题,再在每层内用重要抽样进一步优化。这就像``先粗分、再精调''的两级优化策略,充分发挥各方法的优势。实际中,复杂问题往往需要多种技术的巧妙组合。}

分层抽样法也可以用在求随机变量函数期望的问题中。设 \(X\) 为随机变量,要求 \(X\) 的函数 \(h\left( X\right)\) 的数学期望 \(\theta  = {Eh}\left( X\right)\) 。假设存在离散型随机变量 \(Y,{p}_{j} = P\left( {Y = {y}_{j}}\right) ,j = 1,2,\ldots ,m\) , 在 \(Y = {y}_{j}\) 条件下可以从 \(X\) 的条件分布抽样,则

\[
E\left\lbrack  {h\left( X\right) }\right\rbrack   = E\{ E\left\lbrack  {h\left( X\right)  \mid  Y}\right\rbrack  \}  = \mathop{\sum }\limits_{{j = 1}}^{m}E\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack  {p}_{j}, \tag{3.32}
\]

{\color{red}\textbf{[条件期望的重复期望定理]:} 公式(3.32)是概率论中的``重复期望定理''(law of iterated expectations):$E[E[X|Y]] = E[X]$。这是分层抽样在随机变量情形下的理论基础。思想是:先在每个``条件世界''$Y=y_j$中计算$h(X)$的条件期望,然后对这些条件期望再按$Y$的概率分布加权平均。这种``两步平均''等价于直接对$X$平均,但分步进行给了我们优化的机会!}

{\color{red}\textbf{[选择辅助变量$Y$的艺术]:} 关键是如何选择分层变量$Y$?理想的$Y$应该满足:(1)$Y$与$h(X)$高度相关——知道$Y$后,$X$的不确定性大幅减小;(2)在给定$Y$条件下容易从$X$抽样。例如,如果$X$是收入,$Y$可以是职业、教育程度等。好的$Y$能``解释''$X$的大部分变异,使条件方差$\text{Var}[h(X)|Y=y_j]$远小于边际方差$\text{Var}[h(X)]$。}

如果在 \(Y = {y}_{j}\) 条件下生成 \(X\) 的 \({N}_{j} = N{p}_{j}\) 个抽样值,设为 \({X}_{i}^{\left( j\right) },i = 1,2,\ldots ,{N}_{j}\) ,则可以用 \(\frac{1}{{N}_{j}}\mathop{\sum }\limits_{{i = 1}}^{{N}_{j}}h\left( {X}_{i}^{\left( j\right) }\right)\) 估计 \(E\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack\) ,估计 \(\theta\) 为

\[
\widehat{\theta } = \mathop{\sum }\limits_{{j = 1}}^{m}\frac{1}{{N}_{j}}\mathop{\sum }\limits_{{i = 1}}^{{N}_{j}}h\left( {X}_{i}^{\left( j\right) }\right) {p}_{j} = \frac{1}{N}\mathop{\sum }\limits_{{j = 1}}^{m}\mathop{\sum }\limits_{{i = 1}}^{{N{p}_{j}}}h\left( {X}_{i}^{\left( j\right) }\right) , \tag{3.33}
\]

这是 \(\theta\) 的无偏和强相合估计,且估计方差

\[
\operatorname{Var}\left( \widehat{\theta }\right)  = \frac{1}{{N}^{2}}\mathop{\sum }\limits_{{j = 1}}^{m}N{p}_{j}\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack
\]

\[
= \frac{1}{N}\mathop{\sum }\limits_{{j = 1}}^{m}\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack  {p}_{j} \tag{3.34}
\]

\[
= \frac{1}{N}E\{ \operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y}\right\rbrack  \}  \leq  \frac{1}{N}\operatorname{Var}\left\lbrack  {h\left( X\right) }\right\rbrack  , \tag{3.35}
\]

{\color{red}\textbf{[方差缩减保证]:} 不等式(3.35)是分层抽样有效性的数学保证!它告诉我们,分层抽样的方差$\frac{1}{N}E[\text{Var}[h(X)|Y]]$永远不会超过直接平均的方差$\frac{1}{N}\text{Var}[h(X)]$。``最坏情况''是两者相等,发生在$Y$与$X$完全独立时(分层毫无意义);``最好情况''是条件方差为零,即$Y$完全决定$h(X)$(分层后无随机性)。实际中,好的分层变量能带来数量级的方差缩减!}

比直接用平均值法估计 \({Eh}\left( X\right)\) 的方差小。这里用到了条件方差的性质

\[
\operatorname{Var}\left( X\right)  = E\left\lbrack  {\operatorname{Var}\left( {X \mid  Y}\right) }\right\rbrack   + \operatorname{Var}\left\lbrack  {E\left( {X \mid  Y}\right) }\right\rbrack   \geq  E\left\lbrack  {\operatorname{Var}\left( {X \mid  Y}\right) }\right\rbrack  , \tag{3.36}
\]

{\color{red}\textbf{[方差分解定理——分层抽样的灵魂]:} 公式(3.36)是概率论中的``条件方差分解定理''(law of total variance),也是理解分层抽样威力的核心!它将总方差分解为两部分:(1)$E[\text{Var}(X|Y)]$——``层内平均方差'',即给定$Y$后$X$剩余的随机性;(2)$\text{Var}[E(X|Y)]$——``层间方差'',即不同$Y$值对应的条件期望之间的差异。}

{\color{red}\textbf{[方差分解的深刻含义]:} 让我们用具体例子理解:假设$X$是学生成绩,$Y$是班级。总方差$\text{Var}(X)$包含两部分:(1)层内方差——同一班级内学生成绩的差异(个体随机性);(2)层间方差——不同班级平均成绩的差异(系统性差异)。直接平均时,两种方差都影响估计;分层后,只有层内方差影响估计,层间方差被分层结构``吸收''了!如果班级间差异很大(层间方差大),分层的收益就巨大。}

{\color{red}\textbf{[为什么分层有效]:} 直接平均时,我们用$\frac{1}{N}\sum h(X_i)$估计$E[h(X)]$,方差是$\frac{1}{N}\text{Var}[h(X)] = \frac{1}{N}\{E[\text{Var}(X|Y)] + \text{Var}[E(X|Y)]\}$——包含两部分方差。分层抽样时,我们先算每层条件期望$E[h(X)|Y=y_j]$,再用确定性权重$p_j$加权,方差只有$\frac{1}{N}E[\text{Var}(X|Y)]$——层间方差$\text{Var}[E(X|Y)]$消失了!因为层间差异现在是``确定性地''计入,而非``随机性地''采样。这就是分层的魔力!}

如果 \(Y\) 与 \(X\) 独立则 \(E\left( {X \mid  Y}\right)  = {EX},\operatorname{Var}\left\lbrack  {E\left( {X \mid  Y}\right) }\right\rbrack   = 0\) ,这时分层抽样法比平均值法没有改进。从(3.34)可以看出,如果第 \(j\) 层样本的函数 \(h\left( {X}_{i}^{\left( j\right) }\right) ,i = 1,2,\ldots ,N{p}_{j}\) 的样本方差为 \({S}_{j}^{2}\) , 则 \(\operatorname{Var}\left( \widehat{\theta }\right)\) 的一个无偏估计是

\[
\overset{⏜}{\operatorname{Var}\left( \widehat{\theta }\right) } = \frac{1}{N}\mathop{\sum }\limits_{{j = 1}}^{m}{S}_{j}^{2}{p}_{j} \tag{3.37}
\]

公式(3.33)取第 \(j\) 层样本数 \({N}_{j} = N{p}_{j}\) ,仅考虑了 \(Y\) 的取值分布,而未考虑 \(X \mid  Y = {y}_{j}\) 的条件分布情况。类似于(3.31)和(3.32),应该对 \(\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack\) 较大的层取更多的样本。使得估计方差最小的分层样本量分配满足 \({N}_{j} \propto  {p}_{j}\sqrt{\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack  }\) ,即

\[
{N}_{j} = N\frac{{p}_{j}\sqrt{\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack  }}{\mathop{\sum }\limits_{{k = 1}}^{m}{p}_{k}\sqrt{\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{k}}\right\rbrack  }}. \tag{3.38}
\]

{\color{red}\textbf{[比例分配vs最优分配]:} 这里有两种分配策略的对比:(1)\textbf{比例分配}:$N_j = Np_j$,完全按照$Y$的概率分布分配样本,简单但未必最优;(2)\textbf{最优分配}:$N_j \propto p_j\sigma_j$(其中$\sigma_j = \sqrt{\text{Var}[h(X)|Y=y_j]}$),既考虑概率权重$p_j$,又考虑条件标准差$\sigma_j$。如果所有层的条件方差相等,两种策略一致;但如果某层条件方差特别大,最优分配会向其倾斜更多样本。}

{\color{red}\textbf{[最优分配的直觉]:} 公式(3.38)说:样本数应该正比于$p_j\sigma_j$。为什么?(1)$p_j$大的层在总期望中``权重高'',估计误差对总体影响大,应该多投入;(2)$\sigma_j$大的层``难估计'',需要更多样本才能稳定。这两个因素相乘得到最优配置。极端情况:如果某层$\sigma_j=0$(条件方差为零),那层只需1个样本即可!这体现了``按需分配''的智慧。}

{\color{red}\textbf{[与积分情形对比]:} 注意积分情形的最优分配是$n_j \propto V(C_j)\sigma_j$(公式3.31),而随机变量情形是$N_j \propto p_j\sigma_j$(公式3.38)。两者结构一致!$V(C_j)$对应$p_j$(都是``重要性权重''),$\sigma_j$都是标准差。这揭示了深层的统一性:无论是几何积分还是概率期望,最优分配的原则都是``重要性×难度''。}

在 \(\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack\) 未知的时候,可以预先抽取一个小的样本估计 \(\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack\) ,然后按估计的最优 \({N}_{j}\) 分配各层的样本量。采用(3.38)的分层样本量后,

\[
\widehat{\theta } = \mathop{\sum }\limits_{{j = 1}}^{m}\frac{1}{{N}_{j}}\mathop{\sum }\limits_{{i = 1}}^{{N}_{j}}h\left( {X}_{i}^{\left( j\right) }\right) {p}_{j}, \tag{3.39}
\]

\[
\operatorname{Var}\left( \widehat{\theta }\right)  = \mathop{\sum }\limits_{{j = 1}}^{m}\frac{{p}_{j}^{2}\operatorname{Var}\left\lbrack  {h\left( X\right)  \mid  Y = {y}_{j}}\right\rbrack  }{{N}_{j}}, \tag{3.40}
\]

于是 \(\operatorname{Var}\left( \widehat{\theta }\right)\) 的估计为

\[
\widehat{\operatorname{Var}\left( \widehat{\theta }\right) } = \mathop{\sum }\limits_{{j = 1}}^{m}\frac{{p}_{j}^{2}{S}_{j}^{2}}{{N}_{j}}, \tag{3.41}
\]

其中 \({S}_{j}^{2}\) 是第 \(j\) 层样本函数 \(\left\{  {h\left( {X}_{i}^{\left( j\right) }\right) ,i = 1,2,\ldots ,{N}_{j}}\right\}\) 的样本方差。

{\color{red}\textbf{[实施策略]:} 在实践中,最优分配(3.38)需要知道各层的条件方差$\text{Var}[h(X)|Y=y_j]$。如果事先不知道,常用``两阶段策略'':(1)\textbf{导航阶段}(pilot phase):用较小样本量(如总预算的5-10\%)对各层进行初步探索,估计$\sigma_j$;(2)\textbf{主阶段}(main phase):根据导航阶段的$\hat{\sigma}_j$计算最优分配,投入剩余样本。这种``先侦察、后主攻''的策略在实际中非常有效。}

{\color{red}\textbf{[本质总结]:} 分层抽样的三大原理总结——(1)\textbf{分解原理}:把异质性大的总体分解为同质性强的子层,将``大方差问题''化为``多个小方差问题'';(2)\textbf{独立估计}:各层独立估计,层内方差小导致估计容易,且各层误差相互独立;(3)\textbf{确定性整合}:层间用确定性权重$p_j$加权求和,消除了层间方差的随机性影响。这是``化整为零、各个击破、精确整合''的完美实践!}

分层抽样法的本质是把 \(X\) 的值相近的抽样分入一层,使得同层的 \(X\) 条件方差较小,从而减小估计方差。

{\color{red}\textbf{[方法论启示]:} 分层抽样体现了处理复杂问题的一般方法论:(1)\textbf{识别结构}:发现问题中的``异质性''来源——哪些因素导致变量差异大?(2)\textbf{分而治之}:按异质性因素分层,使每层内部``同质化'';(3)\textbf{优化配置}:根据各子问题的难度和重要性合理分配资源;(4)\textbf{系统综合}:用精确的数学框架整合子问题的解。这种思想在科学计算、机器学习、工程优化中无处不在!}

例 3.2.7. 设 \(U \sim  \mathrm{U}\left( {0,1}\right)\) ,要估计 \(\theta  = {Eh}\left( U\right)  = {\int }_{0}^{1}h\left( x\right) {dx}\) 。令 \(Y = \operatorname{ceil}\left( {mU}\right)\) ,即当且仅当 \(\frac{j - 1}{m} < U \leq  \frac{j}{m}\) 时 \(Y = j,j = 1,2,\ldots ,m\) ,可以按照 \(Y\) 分层抽样估计 \(\theta\) :

{\color{red}\textbf{[均匀分层策略]:} 这个例子展示了最简单的分层方案:将$[0,1]$均匀切分为$m$个等长子区间$[\frac{j-1}{m}, \frac{j}{m}]$,每层长度$1/m$,每层概率$P(Y=j)=1/m$。这种``等距分层''虽然简单,但对很多函数已经相当有效——它保证了每层的``动态范围''不超过整体的$1/m$。对于平滑函数,这种局部小区间上的近似常数假设是合理的。}

\[
\theta  = E\left\lbrack  {h\left( U\right) }\right\rbrack   = \mathop{\sum }\limits_{{j = 1}}^{m}E\left\lbrack  {h\left( U\right)  \mid  Y = j}\right\rbrack  P\left( {Y = j}\right)  \tag{3.42}
\]

\[
= \frac{1}{m}\mathop{\sum }\limits_{{j = 1}}^{m}E\left\lbrack  {h\left( U\right)  \mid  Y = j}\right\rbrack  , \tag{3.43}
\]

易见 \(Y = j\) 条件下 \(U\) 服从 \(\left( {\frac{j - 1}{m},\frac{j}{m}}\right)\) 上的均匀分布,设 \({U}_{1},{U}_{2},\ldots ,{U}_{n}\) 是 \(\mathrm{U}\left( {0,1}\right)\) 的独立抽样, 则用分层抽样法取每层 \({N}_{j} = 1\) 估计 \(\theta  = {Eh}\left( U\right)\) 为

\[
\widehat{\theta } = \frac{1}{m}\mathop{\sum }\limits_{{j = 1}}^{m}h\left( \frac{j - 1 + {U}_{j}}{m}\right) . \tag{3.44}
\]

{\color{red}\textbf{[每层一个样本的妙处]:} 注意这里$N_j=1$——每层只取一个样本!总共用$m$个样本。估计量形式优雅:$\hat{\theta} = \frac{1}{m}\sum_{j=1}^m h(\frac{j-1+U_j}{m})$。这实际上是一种``分层随机化''策略:在第$j$层的$[\frac{j-1}{m}, \frac{j}{m}]$内随机选一点。这确保了$m$个样本点``均匀覆盖''$[0,1]$——不会像纯随机那样扎堆或留空白,这种``强制分散''大幅降低方差!}

{\color{red}\textbf{[与拟蒙特卡洛联系]:} 公式(3.44)的结构很像拟蒙特卡洛方法!如果取$U_j=0.5$(每层中点),就得到确定性的``中点法则'';如果$U_j$随机,就是分层随机化。这介于纯随机(Monte Carlo)和确定性(拟Monte Carlo)之间,兼顾了随机性(便于误差分析)和确定性(样本均匀分布)的优点。当$m$很大时,这种方法的方差衰减速度可以达到$O(1/m^2)$而非$O(1/m)$,对光滑函数尤其有效!}

{\color{red}\textbf{[分层细化]:} 层数$m$的选择权衡:(1)$m$越大,层内$h$变化越小,条件方差$\text{Var}[h(U)|Y=j]$越小,理论上越好;(2)但$m$太大时,每层样本太少,估计不稳定。实践中,$m=\sqrt{N}$(总样本$N$的平方根)常是好选择。例如$N=10000$时取$m=100$,每层100个样本。这个例子的极端情形$N_j=1$适合$h$非常光滑的情况。}
